Analisis Exlporatorio


Situación Problemática


En Guatemala pasa que al hacer inversiones en ciertas areas como la educacion, se hace la inversion sin pensar en que sectores es mas eficiente invertir en educacion y resulta ser una inversion con un bajo impacto en el pais, porque resulta que hay sectores que lo necesitan.

Problema científico


Con la informacion de nacimientos de 2009 a 2019 queremos hacer un analisis de datos para la inversion de educacion segun departamento tomando en cuenta cantidad de nacimientos por departamento y las condiciones de la madre de cada parto.

Objetivos


  • Averiguar que variables influyen mas en que la madre este soltera con un modelo.

  • Determinar mayor taza de nacimientos por departamento y determinar orden de mayor a menor crecimiento o probabilidad de crecimiento.

  • Decidir un orden de departamentos en los que se debe invertir en educacion segun los datos analizados.

Descripción de los datos


Para el desarrollo de este proyecto se trabajó con la base de datos de Estadísticas Vitales del Instituto Nacional de Estadística de Guatemala (INE) desde el año 2010 al año 2019. Estas estadísticas provienen de registros administrativos de nacimientos, defunciones, matrimonios y divorcios. Las estadísticas vitales brindan información importante sobre los cambios de patrones en las áreas antes mencionadas, brindando así, una visión dinámica de la población.

Dado que esta información está en archivos .xls el paso inicial que tomo el grupo fue juntar todos los sets de datos en un solo data frame por hoja que cada archivo contiene. Dado que se trabajo con información de 10 años distintos no en todos se cuantifica la misma información, por lo que fue necesario excluir ciertos datos que en archivos recientes si hay. Se agrego una columna a cada data frame para diferenciar el año en el que se obtuvo esa información. Seguido de esto se guardaron todos los data frames, habiendo unido la informacion de los 10 archivos distintos, en un archivo .RData.

Luego de juntar los sets de datos se clasifico cuales iban a ser relevantes para solventar la problemática anteriormente planteada. Por lo que se escogieron los siguientes sets de datos:

  • Nacimientos por departamento de residencia de la madre, según edades simples de la madre
  • Nacimientos por estado civil de la madre, según departamento de su residencia
  • Nacimientos por estado civil de la madre, según grupos de edad
  • Nacimientos por grupos de edad de la madre, según grupos de edad del padre
  • Número de hijos(as) tenidos, según edades simples de la madre
  • Nacimientos por grupos de edad de la madre, según departamento y municipio de su residencia
  • Nacimientos por grupos de edad de la madre, según grandes grupos ocupacionales de la madre
  • Nacimientos por edad de la madre, según departamento de residencia, área geográfica de ocurrencia, y grupo étnico de la madre
  • Nacimientos por escolaridad de la madre, según número de hijos(as) tenidos

Una de las ventajas que se tuvo al trabajar con este set de datos es que no fue sumamente necesaria la limpieza de datos. La mayoría de las hojas se encuentran llena de datos, no hay datos N/A. Sin embargo, a lo largo de los años se agregaron nuevas columnas o cambiaron de nombre, lo que se volvió un tanto tedioso. Fue necesario que variables cambiaron o que nueva información se agregó, ya que no se trabajó con datos que no se encontraran en los 10 años.

A continuación, mostramos una clasificación de las variables por cada set de datos:

  • Nacimientos por departamento de residencia de la madre, según edades simples de la madre

    • Edad: variable cuantitativa discreta.
    • Departamento: Variable cualitativa nominal
  • Nacimientos por estado civil de la madre, según departamento de su residencia

    • Departamento: Variable cualitativa nominal
    • Estado Civil: Variable cualitativa nominal
  • Nacimientos por estado civil de la madre, según grupos de edad

    • Grupo de Edad: Variable cuantitativa discreta
    • Estado Civil: Variable cualitativa nominal
  • Nacimientos por grupos de edad de la madre, según grupos de edad del padre

    • Grupo de Edad Madre: Variable cuantitativa discreta
    • Grupo de Edad Padre: Variable cuantitativa discreta
  • Número de hijos(as) tenidos, según edades simples de la madre

    • Edad: Variable cuantitativa discreta
    • Numero de Hijos: Variable cuantitativa discreta
  • Nacimientos por grupos de edad de la madre, según departamento y municipio de su residencia

    • Departamento: Variable cualitativa nominal
    • Municipio: Variable cualitativa nominal
    • Grupo de Edad: Variable cuantitativa discreta
  • Nacimientos por grupos de edad de la madre, según grandes grupos ocupacionales de la madre

    • Grupos Ocupacionales: Variable cualitativa nominal
    • Grupo de Edad: Variable cuantitativa discreta
  • Nacimientos por edad de la madre, según departamento de residencia, área geográfica de ocurrencia, y grupo étnico de la madre

    • Departamento: Variable cualitativa nominal
    • Area Geografica: Variable cualitativa nominal
    • Grupo Etnico: Variable cualitativa nominal
    • Grupo de Edad: Variable cuantitativa discreta
  • Nacimientos por escolaridad de la madre, según número de hijos(as) tenidos

    • Numero de hijos: variable cuantitativa discreta
    • Escolaridad de la madre: varibale cualitativa nominal

Análisis Exploratorio


Para realizar el analisis, pensamos verificar que informacion nos es mas util entre las siguientes tablas:

- Estadística Descriptiva

  • Nacimientos por departamento de residencia de la madre, según edades simples de la madre
## [1] "Cantidad de filas"
## [1] 516
## [1] "Cantidad de columnas"
## [1] 27
## [1] "Estructura de los datos"
## 'data.frame':    516 obs. of  27 variables:
##  $ Edad          : chr  "Todas las edades" "10" "11" "12" ...
##  $ Total         : num  361906 11 34 104 449 ...
##  $ Guatemala     : num  59021 0 1 11 36 ...
##  $ El.Progreso   : num  3761 0 0 0 4 ...
##  $ Sacatepéquez  : num  6697 0 0 1 6 ...
##  $ Chimaltenango : num  14998 0 0 1 4 ...
##  $ Escuintla     : num  14342 0 1 4 32 ...
##  $ Santa.Rosa    : num  8253 0 0 5 7 ...
##  $ Sololá        : num  9413 0 1 1 5 ...
##  $ Totonicapán   : num  11400 0 0 0 2 29 94 258 382 505 ...
##  $ Quetzaltenango: num  19004 0 3 5 17 ...
##  $ Suchitepéquez : num  12947 0 1 5 20 ...
##  $ Retalhuleu    : num  7418 1 1 7 13 ...
##  $ San.Marcos    : num  29322 0 2 8 37 ...
##  $ Huehuetenango : num  36390 0 4 10 45 ...
##  $ Quiché        : num  27795 0 0 3 24 ...
##  $ Baja.Verapaz  : num  7628 0 0 3 4 ...
##  $ Alta.Verapaz  : num  33501 1 4 9 45 ...
##  $ Petén         : num  14147 1 3 8 66 ...
##  $ Izabal        : num  9878 0 3 4 28 ...
##  $ Zacapa        : num  5648 1 3 3 11 ...
##  $ Chiquimula    : num  10400 0 1 5 17 82 171 281 437 517 ...
##  $ Jalapa        : num  8548 0 1 6 11 ...
##  $ Jutiapa       : num  11134 0 2 3 13 ...
##  $ Extranjero    : num  113 0 0 0 0 1 1 4 3 3 ...
##  $ Ignorado      : num  148 7 3 2 2 4 4 10 8 5 ...
##  $ anio          : num  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## [1] "Ultimas filas"
##         Edad Total Guatemala El.Progreso Sacatepéquez Chimaltenango Escuintla
## 514       57     1         0           0            0             0         0
## 515       59     1         0           0            0             0         0
## 516 Ignorado    92        11           0            0             1         2
##     Santa.Rosa Sololá Totonicapán Quetzaltenango Suchitepéquez Retalhuleu
## 514          0      0           0              0             0          0
## 515          0      0           0              0             0          0
## 516          0      0           1              1             1          1
##     San.Marcos Huehuetenango Quiché Baja.Verapaz Alta.Verapaz Petén Izabal
## 514          0             0      0            0            1     0      0
## 515          1             0      0            0            0     0      0
## 516          6             1      0            0            1     1      1
##     Zacapa Chiquimula Jalapa Jutiapa Extranjero Ignorado anio
## 514      0          0      0       0          0        0 2019
## 515      0          0      0       0          0        0 2019
## 516      4          0      0       2          2       56 2019
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1  516      27                1                 26                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                    0           516              13932       120608

##           feature num_missing pct_missing
## 1            Edad           0           0
## 2           Total           0           0
## 3       Guatemala           0           0
## 4     El.Progreso           0           0
## 5    Sacatepéquez           0           0
## 6   Chimaltenango           0           0
## 7       Escuintla           0           0
## 8      Santa.Rosa           0           0
## 9          Sololá           0           0
## 10    Totonicapán           0           0
## 11 Quetzaltenango           0           0
## 12  Suchitepéquez           0           0
## 13     Retalhuleu           0           0
## 14     San.Marcos           0           0
## 15  Huehuetenango           0           0
## 16         Quiché           0           0
## 17   Baja.Verapaz           0           0
## 18   Alta.Verapaz           0           0
## 19          Petén           0           0
## 20         Izabal           0           0
## 21         Zacapa           0           0
## 22     Chiquimula           0           0
## 23         Jalapa           0           0
## 24        Jutiapa           0           0
## 25     Extranjero           0           0
## 26       Ignorado           0           0
## 27           anio           0           0

  • Nacimientos por departamento de residencia de la madre, segun departamento de ocurrencia
## [1] "Cantidad de filas"
## [1] 3250
## [1] "Cantidad de columnas"
## [1] 6
## [1] "Estructura de los datos"
## 'data.frame':    3250 obs. of  6 variables:
##  $ Mes                       : chr  "Todos los meses" "Todos los meses" "Todos los meses" "Todos los meses" ...
##  $ Departamento.de.residencia: chr  "Todos los departamentos" "Guatemala" "El Progreso" "Sacatepéquez" ...
##  $ Total                     : num  361906 59021 3761 6697 14998 ...
##  $ Hombres                   : num  183354 29884 1916 3449 7509 ...
##  $ Mujeres                   : num  178552 29137 1845 3248 7489 ...
##  $ anio                      : num  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## [1] "Ultimas filas"
##            Mes Departamento.de.residencia Total Hombres Mujeres anio
## 3248 Diciembre                    Jutiapa   839     436     403 2019
## 3249 Diciembre                 Extranjero    23      13      10 2019
## 3250 Diciembre                   Ignorado     6       3       3 2019
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1 3250       6                2                  4                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                    0          3250              19500       160440

##                      feature num_missing pct_missing
## 1                        Mes           0           0
## 2 Departamento.de.residencia           0           0
## 3                      Total           0           0
## 4                    Hombres           0           0
## 5                    Mujeres           0           0
## 6                       anio           0           0

## 1 features with more than 20 categories ignored!
## Departamento.de.residencia: 25 categories

    • Nacimientos por estado civil de la madre, según departamento de su residencia
## [1] "Cantidad de filas"
## [1] 250
## [1] "Cantidad de columnas"
## [1] 7
## [1] "Estructura de los datos"
## 'data.frame':    250 obs. of  7 variables:
##  $ Departamento.de.residencia: chr  "Todos los departamentos" "Guatemala" "El Progreso" "Sacatepéquez" ...
##  $ Total                     : num  361906 59021 3761 6697 14998 ...
##  $ Soltera                   : num  203436 32557 2298 2975 5377 ...
##  $ Casada                    : num  156644 26349 1450 3718 9612 ...
##  $ Unida                     : num  1403 60 11 3 1 ...
##  $ Ignorado                  : num  423 55 2 1 8 116 8 1 7 18 ...
##  $ anio                      : num  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## [1] "Ultimas filas"
##     Departamento.de.residencia Total Soltera Casada Unida Ignorado anio
## 248                    Jutiapa 10357    6536   3798    20        3 2019
## 249                 Extranjero   339     226     50     0       63 2019
## 250                   Ignorado    68      30      0     0       38 2019
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1  250       7                1                  6                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                    0           250               1750        17904

##                      feature num_missing pct_missing
## 1 Departamento.de.residencia           0           0
## 2                      Total           0           0
## 3                    Soltera           0           0
## 4                     Casada           0           0
## 5                      Unida           0           0
## 6                   Ignorado           0           0
## 7                       anio           0           0

## Warning in dummify(data, maxcat = maxcat): Ignored all discrete features since
## `maxcat` set to 20 categories!

  • Nacimientos por estado civil de la madre, según grupos de edad
## [1] "Cantidad de filas"
## [1] 110
## [1] "Cantidad de columnas"
## [1] 7
## [1] "Estructura de los datos"
## 'data.frame':    110 obs. of  7 variables:
##  $ Grupos.de.edad: chr  "Todas las edades" "Menos de 15" "15 - 19" "20 - 24" ...
##  $ Total         : num  361906 2671 69823 105938 84066 ...
##  $ Soltera       : num  203436 2388 52471 64734 42012 ...
##  $ Casada        : num  156644 275 17232 40877 41639 ...
##  $ Unida         : num  1403 4 65 225 323 ...
##  $ Ignorado      : num  423 4 55 102 92 66 38 14 5 0 ...
##  $ anio          : num  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## [1] "Ultimas filas"
##     Grupos.de.edad Total Soltera Casada Unida Ignorado anio
## 108        45 - 49   594     229    352    12        1 2019
## 109       50 y más    36      17     18     1        0 2019
## 110       Ignorado    92      40      1     0       51 2019
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1  110       7                1                  6                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                    0           110                770         9256

##          feature num_missing pct_missing
## 1 Grupos.de.edad           0           0
## 2          Total           0           0
## 3        Soltera           0           0
## 4         Casada           0           0
## 5          Unida           0           0
## 6       Ignorado           0           0
## 7           anio           0           0

  • Nacimientos por estado civil del padre, según grupos de edad
## [1] "Cantidad de filas"
## [1] 110
## [1] "Cantidad de columnas"
## [1] 7
## [1] "Estructura de los datos"
## 'data.frame':    110 obs. of  7 variables:
##  $ Grupos.de.edad: chr  "Todas las edades" "Menos de 15" "15 - 19" "20 - 24" ...
##  $ Total         : num  361906 63 20950 78655 81539 ...
##  $ Soltero       : num  158183 61 15777 48508 39955 ...
##  $ Casado        : num  159626 2 5139 29963 41271 ...
##  $ Unido         : num  1399 0 24 112 240 ...
##  $ Ignorado      : num  42698 0 10 72 73 ...
##  $ anio          : num  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## [1] "Ultimas filas"
##     Grupos.de.edad Total Soltero Casado Unido Ignorado anio
## 108        45 - 49  8280    2980   5214    80        6 2019
## 109       50 y más  5989    2515   3384    85        5 2019
## 110       Ignorado 51417      10      2     0    51405 2019
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1  110       7                1                  6                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                    0           110                770         9256

##          feature num_missing pct_missing
## 1 Grupos.de.edad           0           0
## 2          Total           0           0
## 3        Soltero           0           0
## 4         Casado           0           0
## 5          Unido           0           0
## 6       Ignorado           0           0
## 7           anio           0           0

  • Nacimientos por grupos de edad de la madre, según departamento y municipio de su residencia
## [1] "Cantidad de filas"
## [1] 3623
## [1] "Cantidad de columnas"
## [1] 14
## [1] "Estructura de los datos"
## 'data.frame':    3623 obs. of  14 variables:
##  $ Departamento.de.residencia: chr  "Todos los departamentos" "Guatemala" "Guatemala" "Guatemala" ...
##  $ Municipios                : chr  "Todos los municipios" "Todos los municipios" "Guatemala" "Santa Catarina Pinula" ...
##  $ Total                     : num  361906 59021 20265 1512 1657 ...
##  $ Menos.de.15               : num  2671 216 67 5 5 ...
##  $ X15...19                  : num  69823 8948 2816 224 295 ...
##  $ X20...24                  : num  105938 17778 6015 432 535 ...
##  $ X25...29                  : num  84066 15588 5352 402 425 ...
##  $ X30...34                  : num  56899 10489 3897 283 234 ...
##  $ X35...39                  : num  30417 4631 1672 122 124 ...
##  $ X40...44                  : num  10212 1197 385 35 31 ...
##  $ X45...49                  : num  1249 112 27 5 7 ...
##  $ X50.y.más                 : num  348 11 3 0 1 0 2 0 0 3 ...
##  $ Ignorado                  : num  283 51 31 4 0 0 0 1 0 5 ...
##  $ anio                      : num  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## [1] "Ultimas filas"
##      Departamento.de.residencia Municipios Total Menos.de.15 X15...19 X20...24
## 3621                    Jutiapa    Quesada   463           2       80      148
## 3622                 Extranjero Extranjero   339           0       33       74
## 3623                   Ignorado   Ignorado    68           1        7        0
##      X25...29 X30...34 X35...39 X40...44 X45...49 X50.y.más Ignorado anio
## 3621      109       83       31       10        0         0        0 2019
## 3622       99       83       35       11        2         0        2 2019
## 3623        2        2        0        0        0         0       56 2019
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1 3623      14                2                 12                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                    0          3623              50722       434080

##                       feature num_missing pct_missing
## 1  Departamento.de.residencia           0           0
## 2                  Municipios           0           0
## 3                       Total           0           0
## 4                 Menos.de.15           0           0
## 5                    X15...19           0           0
## 6                    X20...24           0           0
## 7                    X25...29           0           0
## 8                    X30...34           0           0
## 9                    X35...39           0           0
## 10                   X40...44           0           0
## 11                   X45...49           0           0
## 12                  X50.y.más           0           0
## 13                   Ignorado           0           0
## 14                       anio           0           0

## 1 columns ignored with more than 50 categories.
## Municipios: 337 categories

## Warning in dummify(data, maxcat = maxcat): Ignored all discrete features since
## `maxcat` set to 20 categories!

  • Nacimientos por grupos de edad de la madre, según grandes grupos ocupacionales de la madre
## [1] "Cantidad de filas"
## [1] 130
## [1] "Cantidad de columnas"
## [1] 13
## [1] "Estructura de los datos"
## 'data.frame':    130 obs. of  13 variables:
##  $ Grupos.ocupacionales: chr  "Todos los grupos ocupacionales" "Ocupaciones militares" "Directores y gerentes" "Profesionales científicos e intelectuales" ...
##  $ Total               : num  361906 6 133 12902 4161 ...
##  $ Menos.de.15         : num  2671 0 0 0 0 ...
##  $ X15...19            : num  69823 0 6 341 388 ...
##  $ X20...24            : num  105938 4 24 3901 1649 ...
##  $ X25...29            : num  84066 1 39 4210 1186 ...
##  $ X30...34            : num  56899 1 43 2888 635 ...
##  $ X35...39            : num  30417 0 18 1251 253 ...
##  $ X40...44            : num  10212 0 3 276 38 ...
##  $ X45...49            : num  1249 0 0 25 7 ...
##  $ X50.y.más           : num  348 0 0 2 3 1 3 2 3 12 ...
##  $ Ignorado            : num  283 0 0 8 2 6 1 2 1 0 ...
##  $ anio                : num  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## [1] "Ultimas filas"
##              Grupos.ocupacionales  Total Menos.de.15 X15...19 X20...24 X25...29
## 128       Ocupaciones elementales 324446        1908    65585   102722    75327
## 129 No especificado en otro grupo      0           0        0        0        0
## 130                      Ignorado      0           0        0        0        0
##     X30...34 X35...39 X40...44 X45...49 X50.y.más Ignorado anio
## 128    45276    25052     7931      523        32       90 2019
## 129        0        0        0        0         0        0 2019
## 130        0        0        0        0         0        0 2019
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1  130      13                1                 12                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                    0           130               1690        18712

##                 feature num_missing pct_missing
## 1  Grupos.ocupacionales           0           0
## 2                 Total           0           0
## 3           Menos.de.15           0           0
## 4              X15...19           0           0
## 5              X20...24           0           0
## 6              X25...29           0           0
## 7              X30...34           0           0
## 8              X35...39           0           0
## 9              X40...44           0           0
## 10             X45...49           0           0
## 11            X50.y.más           0           0
## 12             Ignorado           0           0
## 13                 anio           0           0

  • Nacimientos por edad de la madre, según departamento de residencia, área geográfica de ocurrencia, y grupo étnico de la madre
## [1] "Cantidad de filas"
## [1] 2093
## [1] "Cantidad de columnas"
## [1] 14
## [1] "Estructura de los datos"
## 'data.frame':    2093 obs. of  14 variables:
##  $ Departamento.de.ocurrencia       : chr  "Todos los departamentos" "Todos los departamentos" "Todos los departamentos" "Todos los departamentos" ...
##  $ Pueblo.de.pertenencia.de.la.madre: chr  "Todos los grupos étnicos" "Indígena" "No indígena" "Ignorado" ...
##  $ Total                            : num  361906 154480 142355 65071 201656 ...
##  $ Menos.de.15                      : num  2671 938 993 740 1504 ...
##  $ X15...19                         : num  69823 28162 28339 13322 38971 ...
##  $ X20...24                         : num  105938 43295 44068 18575 61625 ...
##  $ X25...29                         : num  84066 34898 33942 15226 48309 ...
##  $ X30...34                         : num  56899 25576 21211 10112 31070 ...
##  $ X35...39                         : num  30417 15209 10180 5028 14953 ...
##  $ X40...44                         : num  10212 5505 3048 1659 4555 ...
##  $ X45...49                         : num  1249 652 382 215 439 ...
##  $ X50.y.más                        : num  348 183 117 48 69 21 31 17 264 8 ...
##  $ Ignorado                         : num  283 62 75 146 161 31 58 72 102 3 ...
##  $ anio                             : num  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## [1] "Ultimas filas"
##      Departamento.de.ocurrencia Pueblo.de.pertenencia.de.la.madre Total
## 2091                   Ignorado                    Mestizo/Ladino     2
## 2092                   Ignorado                              Otro     0
## 2093                   Ignorado                          Ignorado    66
##      Menos.de.15 X15...19 X20...24 X25...29 X30...34 X35...39 X40...44 X45...49
## 2091           0        1        0        0        1        0        0        0
## 2092           0        0        0        0        0        0        0        0
## 2093           1        6        0        2        1        0        0        0
##      X50.y.más Ignorado anio
## 2091         0        0 2019
## 2092         0        0 2019
## 2093         0       56 2019
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1 2093      14                2                 12                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                   33          2090              29302       241112

##                              feature num_missing pct_missing
## 1         Departamento.de.ocurrencia           0 0.000000000
## 2  Pueblo.de.pertenencia.de.la.madre           0 0.000000000
## 3                              Total           3 0.001433349
## 4                        Menos.de.15           3 0.001433349
## 5                           X15...19           3 0.001433349
## 6                           X20...24           3 0.001433349
## 7                           X25...29           3 0.001433349
## 8                           X30...34           3 0.001433349
## 9                           X35...39           3 0.001433349
## 10                          X40...44           3 0.001433349
## 11                          X45...49           3 0.001433349
## 12                         X50.y.más           3 0.001433349
## 13                          Ignorado           3 0.001433349
## 14                              anio           0 0.000000000

## 1 features with more than 20 categories ignored!
## Departamento.de.ocurrencia: 31 categories

  • Nacimientos por escolaridad de la madre, según número de hijos(as) tenidos
## [1] "Cantidad de filas"
## [1] 194
## [1] "Cantidad de columnas"
## [1] 11
## [1] "Estructura de los datos"
## 'data.frame':    194 obs. of  11 variables:
##  $ Número.de.hijos.as.: chr  "Todos los hijos" "1" "2" "3" ...
##  $ Total              : num  361906 124533 82509 51750 31820 ...
##  $ Ninguno            : num  136764 31834 24695 19364 15285 ...
##  $ Primaria           : num  122070 41517 30512 19470 11532 ...
##  $ Básica             : num  26330 14224 6955 3133 1115 ...
##  $ Diversificado      : num  38002 20112 11155 4676 1249 ...
##  $ Universitario      : num  4780 2479 1576 542 104 ...
##  $ Post.Grado         : num  39 17 16 6 0 0 0 0 0 0 ...
##  $ Doctorado          : num  2 2 0 0 0 0 0 0 0 0 ...
##  $ Ignorado           : num  33919 14348 7600 4559 2535 ...
##  $ anio               : num  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## [1] "Ultimas filas"
##     Número.de.hijos.as. Total Ninguno Primaria Básica Diversificado
## 192                  17     6       2        4      0             0
## 193                  18     3       2        1      0             0
## 194            Ignorado  7608    1500     2699   1361          1339
##     Universitario Post.Grado Doctorado Ignorado anio
## 192             0          0         0        0 2019
## 193             0          0         0        0 2019
## 194            79          0         0      630 2019
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1  194      11                1                 10                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                    0           194               2134        21464

##                feature num_missing pct_missing
## 1  Número.de.hijos.as.           0           0
## 2                Total           0           0
## 3              Ninguno           0           0
## 4             Primaria           0           0
## 5               Básica           0           0
## 6        Diversificado           0           0
## 7        Universitario           0           0
## 8           Post.Grado           0           0
## 9            Doctorado           0           0
## 10            Ignorado           0           0
## 11                anio           0           0

##          Variable      Tipo.de.Variable
## 1            ...1   Cualitativa Nominal
## 2           Total Cuantitativa Discreta
## 3       Guatemala Cuantitativa Discreta
## 4     El.Progreso Cuantitativa Discreta
## 5    Sacatepéquez Cuantitativa Discreta
## 6   Chimaltenango Cuantitativa Discreta
## 7       Escuintla Cuantitativa Discreta
## 8      Santa.Rosa Cuantitativa Discreta
## 9          Sololá Cuantitativa Discreta
## 10    Totonicapán Cuantitativa Discreta
## 11 Quetzaltenango Cuantitativa Discreta
## 12  Suchitepéquez Cuantitativa Discreta
## 13     Retalhuleu Cuantitativa Discreta
## 14     San.Marcos Cuantitativa Discreta
## 15  Huehuetenango Cuantitativa Discreta
## 16         Quiché Cuantitativa Discreta
## 17   Baja.Verapaz Cuantitativa Discreta
## 18   Alta.Verapaz Cuantitativa Discreta
## 19          Petén Cuantitativa Discreta
## 20         Izabal Cuantitativa Discreta
## 21         Zacapa Cuantitativa Discreta
## 22     Chiquimula Cuantitativa Discreta
## 23         Jalapa Cuantitativa Discreta
## 24        Jutiapa Cuantitativa Discreta
## 25     Extranjero Cuantitativa Discreta
## 26       Ignorado Cuantitativa Discreta
## 27           anio Cuantitativa Discreta

- Gráficos Exploratorios

- Correlaciones Entre las Variables

Para hacer el estudio de correlación para cada tabla, solo se puede aplicar a variables cuantitativas, se investigó si se puede convertir las variables cuantitativas a numeros diferentes aleatorios, pero las únicas formas que encontramos eran muy complejas en cuestion de tiempo. Por esta razón, se hizo el estudio de correlaión solo entre vaariables cuantitativas actuales.

- Variables Categóricas

- Número de Clusters

- Agrupamiento

- Calidad del Agrupamiento

Hallazgos y conclusiones


- Hallazgos en el análisis exploratorio

- Nombre a los grupos

- Conclusiones